其他
GEO数据挖掘(2)之数据整合
欢迎关注R语言数据分析指南
❝本节来继续介绍如何基于「GEO」数据库进行数据挖掘,前文参考下面链接
❞
2022-01-08
library(GEOquery)
library(tidyverse)
library(magrittr)
load(file ="GSE33126.rdata")
gset <- gset[[1]] # 包含样本信息+基因表达信息
样本信息表
sampleinfo <- pData(gset) %>%# 提取样本信息表
select(source_name_ch1,characteristics_ch1.1) %>%
rename(group = source_name_ch1,patient=characteristics_ch1.1) %>%
mutate_at(vars(patient),~str_split(.," ",simplify = T)[,2])
基因表达矩阵
gene_exp <- exprs(gset) %>% as.data.frame()
检查探针编号
tail(gene_exp[,1:3])
同步表达矩阵与样本信息
gene_exp <- gene_exp[,which(
colnames(gene_exp) %in% rownames(sampleinfo)
)]
查看数据
summary(gene_exp)
gene_exp <- log2(gene_exp)
绘制箱线图
boxplot(gene_exp,outline=FALSE)
❝若箱线图中位数差异较大可以执行下面代码对数据进行标准化处理
❞
对数据进行标准化
library(limma)
p <- as.data.frame(
normalizeBetweenArrays(gene_exp)
)
❝经过上面的步骤我们得到了样本信息表 & 基因表达矩阵信息表,接下来从「GEO」数据库下载基因信息表就可进行后续分析
❞
整合基因信息表
gene_info <- read_delim("GPL6947-13512.txt", "\t",escape_double = FALSE, comment = "#",
trim_ws = TRUE) %>%
dplyr::select(ID,Gene_Symbol = Symbol,Entrez_Gene_ID,
Gene_Title = Definition) %>% drop_na()
❝现在我们得到了分析需要的3张表,「save」将其保存后续分析直接加载即可
❞
save(gene_exp,sampleinfo,gene_info, file='GSE33126-info.rdata')
❝好了今天的介绍到此结束,喜欢的小伙伴欢迎「付费99元」可加入我的「VIP交流群」,即同步获取公众号为期一年推文的代码与PDF文档,当然也可以对此文进行任意金额打赏,后台会发送给您数据&代码,感谢各位的支持
❞
欢迎大家扫描下方二位码加入「QQ交流群」,与全国各地上千位小伙伴交流
作者微信
「关注下方公众号下回更新不迷路」,添加作者微信,备注单位+方向+姓名即可邀您
2022-01-14
2022-01-13
2022-01-11
2022-01-09